日志

具有简单智能的机器人的获得

已有 1448 次阅读2013-7-9 10:41 |个人分类:智能科学| 智能机器人, 文章, 技术, 能力, 如何

具有简单智能的机器人的获得

这篇文章的目的是，论述在现有的技术条件下如何获得迅速具有简单学习适应能力的智能机器人。

由于如果使智能机器人完整的模拟人的智能相对困难，需要更多的时间与资源，因而我采取了简单的模拟方式。

根据现有的技术条件及我的理论研究情况。我觉得应按下面的策略方法进行设计：

1. 其学习的环境是存在各种障碍物及路，广场的空间。但早期的学习是先在没有障碍物的地方学习，运动，视觉注意。

2. 获得的智能机器人要具有最简单的智能。有目的与追求，能简单的运动与交流（机器人之间及与人），具有基本的学习能力。

l 这里的智能机器人获得的先天奖赏主要是充电（奖惩是兴奋强度。充电，人的某一行为是奖赏，中介奖赏，某些感觉是奖赏。某些感觉是惩罚，饥饿是惩罚，人的某些行为是惩罚。完不成目的会获得相应的惩罚。一些先天的奖惩能与其它刺激建立联系。联络区。后天奖惩刺激，它自身的兴奋，还有对其它刺激的中介，可能使它的兴奋能力比较强），可以适当的设置几个充电的地方，而且我们可以对充电装置进行特殊的设置。

l 智能机器人有四个车轮，力的方向是四个方向，力有大小。它的大脑可转动，有对焦系统，视觉运动调节系统。

l 可有多个智能机器人，来进行学习，可学习获得模仿能力。可设置专门程序结构的来诱导学习。要设置需要合作的环境，对诱导机器人设置合作的行为。

3. 模拟时，一些不明的机制可通过编程直接模拟而需时较长的一些学习可通过我们诱导获得，也可以通过调快时间加快学习速度获得。也就是说，可通过人为的一些因素使之获得一些功能。其兴奋应能被我们监测与调控（这需要编程时设置）。设置几个重要的监测参数。需要那些基本的编程。记忆与回忆系统，奖惩系统，状态中枢，强度中枢，视觉系统，听觉与语言系统，感觉系统，运动系统。统一的时间，可调快慢。以加快学习进程。

4. 也可以用软件来模拟我们设置的环境及智能机器人，并用软件来控制智能机器人的刺激学习。通过调快学习进程来加快智能机器人的学习。

说明：

我在本文的设计与说明的基础是我的一系列文章的一些内容，在这里主要是进行了一些补充说，并用获得智能机器人将它们串联了起来：

《拟人智能的实现》、《注意力问题的系统讨论》、《奖惩中枢与学习》、《记忆、回忆》、《智能机器人行为能力的获得》、《镜像功能的形成机理》……等文章。

《拟人智能的实现上、下》

http://wenku.baidu.com/view/7998b2360b4c2e3f57276382.html

http://wenku.baidu.com/view/c7fa22284b73f242336c5f82.html

《奖惩中枢与学习》 http://mac.xmu.edu.cn/Chinese/mind&computation/2007-2/2-8.pdf
《镜像功能的形成机理》 http://mac.xmu.edu.cn/Chinese/mind&computation/2009-1/7.pdf
《注意力问题的系统讨论》 http://www.cnki.com.cn/Article/CJFDTotal-XIZH201003010.htm
《兴奋、记忆、回忆》，《智能机器人行为能力的获得》，《认知对思想行为的影响》

记忆兴奋

可参考我的《记忆、回忆》《拟人智能的实现》这几篇文章的相关内容。

记忆遗忘的快慢的重要因素是记忆柱的记忆、遗忘函数的设置。我们对记忆柱的记忆、遗忘、兴奋函数的设置，要考虑到其兴奋的频率，事件发生的频率，短期长期记忆的功能要求，不同部位的记忆柱其功能对记忆回忆的要求。主注意对象的选择，强度中枢的功能，主注意对象的兴奋，奖惩预期的获得，工作记忆的获得，这些功能都对记忆遗忘函数有限制。记忆遗忘函数的设置设计到多种因素，我们可能难于准确把握，我们可以根据情况大胆设置记忆遗忘函数，然后根据情况添加修改函数，也可以根据情况用专门的程序来实现相应的功能。

虽然我在早期的编程中对记忆遗忘函数的设置不够理想，但仍可给我们部分参考。

函数的设置应有个时间函数，它包括记忆遗忘的时间函数，软件自身的时间函数。通过对时间函数的调控，我们可以加快智能软件的学习。

状态中枢的易化，对象本身的记忆（对于一个短期记忆，其记忆的联系应不够强，需要状态中枢的易化参与才能产生效果），易兴奋的记忆联系建立的较快，而不易兴奋的，记忆联系建立的较慢，维持的时间较长。

可以将短期长期记忆受到的限制列举出来，然后讨论这种限制。

状态兴奋的发生，除了外部的兴奋能力，还与原始记忆柱群内部的兴奋能力密切相关。

具体的设置如下：

记忆柱、基本记忆柱群、原始记忆柱群、模糊兴奋回忆的机理、如何将顺序计算转化为并行计算……，这些基本的结构与功能可参考我的《拟人智能的实现》及相关的编程。

如何将顺序计算转化为并行计算

这里主要说明，这种转换并不会影响我们对智能的模拟。

1、不会影响我们正确的获取信息。

2、不会影响受感觉控制的运动。

3、不会影响信息的主要方向。

即使有负面影响，也可通过奖惩学习来调节思想行为，而平复这种负面影响。

具体结构

这里的结构都是功能结构。

记忆柱：记忆柱的兴奋具有自我抑制的作用，这可用专门的程序来模拟。

基本记忆柱群：

基本记忆柱群的易兴奋的记忆柱与不易兴奋的记忆柱　关系，不易兴奋的兴奋后对易兴奋的进行抑制。易兴奋的在原始记忆柱群内部的基本记忆柱群之间有较强的兴奋关系。它受到状态中枢的易化。

先是基本结构，记忆柱（传出到其它中枢，其它中枢的传入，统合性的信息。不同中枢的记忆柱的功能联系是不同的。短期记忆与长期记忆可分别用两个函数来表示，是时间的函数，时间函数的时间是统一的，我们可以将其调快，也可以将其调慢。这样我们就可以编程智能软件的学习环境，从而加快学习），基本记忆柱群（易兴奋的记忆柱会受到不易兴奋的记忆柱的抑制），原始记忆柱群，模糊兴奋等。

设置易兴奋的，不易兴奋的记忆柱，易兴奋的在什么情况下能兴奋，而不易兴奋的在什么情况下能兴奋。状态中枢的易化会影响易兴奋的和不易兴奋的。不易兴奋的对易兴奋的抑制。易兴奋的，其它基本记忆柱群的不易兴奋的对它的兴奋强，没有不同基本群的不易兴奋的兴奋，易兴奋的很难强烈兴奋，并能迅速不兴奋。易兴奋的应与兴奋它的不易兴奋的兴奋基本同步。同基本群的不易兴奋的兴奋对它的抑制最强。根据兴奋特点来设置记忆遗忘。兴奋往往是一群连续的对象对一个对象的兴奋。

记忆柱易兴奋的强弱，记忆联系的强弱，要保证短期记忆建立的记忆联系足够强从而使一定强度的短期记忆，下次还能被回忆。特别是易兴奋的记忆柱。同时，记忆还要在一定时间范围内被遗忘。

主注意对象：人也不是持续的获得信息，也是一段一段的获得信息。只要能正确感知世界，适应世界就可以了。能表示我们所需要表示的对象，能正确处理所需要处理的对象，并获得正确的结果。主注意对象的兴奋传出，在其不成为主注意对象后仍可持续几个周期传出，只是兴奋强度大为减弱。

多少基本记忆柱群能成为主注意对象。按兴奋强度来划分。规定一个数目，如最多8个，可达不到。因为我们的兴奋本身是模糊兴奋，所以，在一定范围内，达不到规定的数目并不影响回忆。

额页，我将它作为强度中枢，奖惩及奖惩预期中枢的联络区（相应中枢兴奋后能对其联络区产生强的易化作用）。它的基本记忆柱群包括易兴奋的和不易兴奋的，主要是与强度中枢一起完成预期的作用。

奖惩中枢，奖惩预期中枢，先天，中介奖惩刺激。奖惩，奖惩预期中枢的兴奋对状态中枢的影响。奖赏兴奋对应传出到状态中枢记忆柱的奖赏功能部分而惩罚部分对应传出到惩罚部分，这样来调节状态中枢的兴奋与记忆（与奖惩中枢建立记忆联系）。其它的一些结构与功能见我的相关文章。

预期可以获得A或B奖赏，那么它们的奖惩预期都是百分之50。

奖惩的大小，可用奖惩中枢或奖惩预期中枢的兴奋强度来表示。对智能机器人进行充电是奖赏刺激，人的某一行为是奖赏刺激，中介奖赏刺激，某些感觉刺激是奖赏刺激。某些感觉是惩罚是惩罚刺激，如饥饿是惩罚刺激，人的某些行为是惩罚刺激。完不成目的会获得相应的惩罚，这种惩罚可能是经验学习的结果。一些先天的奖惩刺激能与其它刺激建立联系从而形成后天的奖惩刺激。对后天奖惩刺激来说，它自身对奖惩中枢的兴奋，还有对其它刺激的中介，可能使它对奖惩中枢的兴奋能力比较强。

状态中枢的记忆柱分为内部部分和传出部分。它的记忆与遗忘特点应不同于其它中枢。一般是兴奋时同强度兴奋，但除了主注意目的对象（它的内部部分强烈兴奋，而外部部分不怎么兴奋）。状态中枢也参与奖惩预期。

一对象，不成为主注意对象后，仍然兴奋，对应的状态中枢也相应兴奋，其后果是离获得奖惩越近的，与奖惩及主注意目的对象建立的记忆联系越强。

不需要仅皮质中枢兴奋后，对应的记忆柱状态中枢就一定兴奋。

主注意目的对象的兴奋强度与奖惩相关，主注意目的对象的兴奋不会直接易化相应的皮质对象，所以要设置传出与传人。

状态中枢对基本记忆柱群的易化，使之容易被兴奋，同时也易被选择成为主注意对象。相对于不易兴奋的对易兴奋的抑制。

状态中枢的记忆柱可分为外部传出，内部联系的。组成基本记忆柱群。奖惩可只是两条记录。

海马的易化应对易与不易兴奋的都产生影响。也可以通过被海马易化的易兴奋的兴奋后，通过记忆易化兴奋没有被海马易化的易兴奋的。

状态中枢的记忆柱可分为外部传出，内部联系的，它们组成基本记忆柱群。奖惩可只是两条记录。

强度中枢可以不存在易与不易兴奋的记忆柱。

它反映局部易兴奋的和不易兴奋的记忆柱的兴奋程度，大的局部的总和，还能与其它的中枢建立记忆联系。

让它在额页设置对应的结构，作为联络区。强度中枢的预期可通过学习获得。

强度中枢的兴奋，应能反应事件发生的概率。

用强度中枢的兴奋来预期事件发生的概率可通过奖惩学习获得。也可以直接设置。

易兴奋的不易兴奋的通过强度中枢也能进行奖惩预期，但这只是理论探讨，现在还是利用强度中枢单独的设置一个奖惩预期中枢更简单合适。

对象回忆，奖惩预期中枢联络区的奖与惩部分的易兴奋部分兴奋，兴奋对应的强度中枢，可通过这来进行奖惩预期。

强度中枢的奖惩预期，可通过经验学习获得，但如果觉得学习麻烦，也可以直接设置计算。回忆总体发生时强度中枢的兴奋，然后回忆具体实现，强度中枢的兴奋，与现实发生进行对比产生经验记忆，回忆到类似的兴奋时，从而产生相似的预期。

也可以设置，强度中枢前后的兴奋有一个比值计算中枢。这个比值再建立经验记忆联系，没有经验时，直接预期，再通过奖惩学习来进行调整。

目的中枢

目的中枢包括核心部分与联络区，它的功能一、是预期动力大于主注意目的对象的一群记忆柱，成为主注意目的对象，预期时兴奋了的一般都成为主注意目的对象，一般是状态中枢的记忆柱成为主注意目的对象。主注意目的对象的部分记忆柱兴奋到一定程度，就会产生奖惩记兴奋及记忆，从而能产生新的奖惩预期。

一﹑视觉系统。

这里不需要像人那样的视觉系统。

可以将空间内的所有信息都获取，然后再根据注意或视力所及进行选择传入（这种获取方法有问题，看样子还是要采取与人或动物相似的注意方法）。这个选择传入系统就像人的视觉系统。

传入的视觉信息应是空间三维信息。

学习时一般应优先关联方位信息，然后是对焦。

它的视觉系统传入图形及空间信息。有相应的神经通路来表示注意的运动，包括上下左右，前后运动，聚焦系统。就如人的视觉系统一样。有基本的运动方式，然后采取什么样的技术手段来解决是技术人员的问题，在现有的技术条件下应不难实现。（与智能机器人在空间的运动机理相似）

智能机器人对外界对象要具有基本的注意与区分能力。这里只设置图形区分，及诱导注意的能力。图形区分是极其有限的线段组合。智能机器人对图像的注意不一定是轮廓，主要是对明暗非常敏感。

比如每个图形的轮廓都由12个线段大概组成（如何抽取刺激信息，才能适应环境）。轮廓刺激能带来较强的兴奋，还有一些刺激也能带来强的刺激兴奋，这种兴奋是模糊兴奋。智能机器人能通过两到三次的注意来识别对象。

比如对人脸的识别，先注意脸的轮廓，然后再注意与识别有重要关系的脸部结构。（这种能力可通过学习获得，成为习惯。）

1﹑物体的注意。学习。

中介奖惩学习。一定的刺激强度能产生奖赏，正常刺激下，刺激越强则产生的奖赏越强。也就是说，刺激的图像越清晰，则受到的奖惩刺激越强。

对一个主注意对象注意后，由于不易兴奋的记忆柱的抑制作用，在一段时间内就不易于再成为主注意对象。那么，对物体的对焦与注视可在一定范围内波动。当一注视受抑制后，可再注视，一般是移动到大概的空间方位然后再微调。

受到奖赏的次数多而强，而惩罚的次数少而弱。时间长了，奖赏的兴奋能力应强于惩罚的。

开始学习时，无法正确的控制运动，会出现清晰的图像刺激与不清晰的图像刺激，智能机器人会不断追求清晰的刺激，从而学习。

注意产生奖赏，短时间内多次注意则动力下降，其它的注意兴奋，从而获得各种视觉刺激强度的兴奋。获得各种经验。

运动到一个地方，再在这个地方进行运动调节，而在运动时视觉的空间方位信息会与运动建立记忆联系，通过这种方式运动就会与方位建立记忆联系，再在奖惩学习的选择下建立正确的记忆联系，并习惯化。大概的运动位置获得相对简单，精确的位置获得需要不断的反馈。

视觉能进行大范围的运动的，包括非眼的，眼的运动。清晰则不需要进一步的运动，不清晰则根据经验进一步的运动学习，并习惯化。

1、轮廓能成为主注意对象，12条线段组成轮廓。一个基本记忆柱群30度的线段，12个基本记忆柱群。

2、线段的明暗关系，轮廓最强，因而对应的记忆柱兴奋的最强。轮廓内部的明暗刺激弱些。但轮廓成为主注意对象后，抑制，内部的明暗就会成为主注意对象，引起注意。

3、内部（轮廓）联系，外部联系、奖惩中枢、强度中枢、状态中枢。

内部联系最为丰富，外部联系要最终会出现习惯性兴奋，这些联系要能产生主注意对象的选择。

联系是有规律的对应的联系（编程的方便）。

联系包括，局部联系，与其它中枢的联系，强度中枢，奖惩中枢等。这些联系要能实现我们所需要的功能。（主注意对象，预期，奖惩，状态中枢）

听觉﹑语言

发音与听觉系统，声音有音节（如a,o,e等）的组合，及长短、高低的属性。

编程所需要的音节，数量要少，便于学习。所需要的音节要能组成基本的交流语言。音节的产生区与接受区都应存在联络区。要能模拟发音。

即存在音节之间的联系，也存在音节与其它中枢的联系。为了编程的简单所有音节可设一个总的并行联络区，用有限的几个基本记忆柱（如8个）表示。联络区的联系方式可参考视觉联络区。其它的触觉也可以采取类似的方法。

当然如果一类感觉，其类型比较少，也可以设置一个一个的感觉中枢对应的联络区。

听觉中枢，几个简单的音节，语言中枢。

运动系统与感觉系统

智能机器人的运动中枢及其调节中枢，控制基本的运动和对这些运动的调节。其运动包括视觉运动，轮子运动，而这两种运动又包括一些基本的运动。基本、调节运动中枢与感觉、视觉、听觉中枢存在广泛的联系，特别是与感觉中枢的联系。这些联系参与调节与控制运动。

感觉中枢包括电力感觉，痛觉，运动觉等等。

轮子运动，视觉运动，及它们包括的基本运动，通过视觉、感觉、运动觉等来调节运动，最终习惯化。感觉刺激产生的兴奋是中介兴奋，每种运动状态都有相应的感受器兴奋，从而能对运动进行实时调控。

在编程时我们要注意到有那些重要的运动状态，需要什么样的感受器，这些感受器应能很好的调控运动。运动觉与痛触觉，可以保证运动的正常进行。智能机器人撞到物体可痛，是惩罚。

对早期的中介奖惩学习来说，一般的惩罚更易遗忘而奖赏更易记忆，以保证智能智能机器人更愿意进行探索。智能机器人主要通过感觉来调节运动，运动调节中枢要能很好的调节对象的前进，后退等及视觉注意。感觉中枢与其它的中枢能建立记忆联系，每一种运动模式都应激活相应的感觉，以产生奖惩预期，同时也能更好的调节运动。

轮子运动的力是前后左右四个方向的力。

智能机器人的运动发生时，视觉刺激也同时存在，从而它们之间建立起记忆联系。视觉方向与相应的随意运动建立起记忆联系。也就是说在方向运动过程中，方向与运动能建立联系。

在记忆联系建立后，智能机器人想到那里去，可通过方向回忆相应的运动，并学习获得。

学习

感觉与运动中枢随机的受到易化是中介奖惩学习的基础。

刺激足够强才能成为主注意对象，易兴奋的及不易兴奋的足够兴奋，易兴奋的受到不易兴奋的抑制，但刺激对易兴奋的兴奋的足够强，使它成为主注意对象。

一般的刺激兴奋的不够强，除非受到状态中枢的易化。也就是说感觉与运动中枢受到状态中枢的易化随机易化是中介奖惩学习的基础。

智能机器人早期学习阶段，视觉模糊的刺激仍能成为主注意对象。我们如何编程的目的是通过学习能获取有用的信息。有感知所有的信息的潜力，但无用的信息能迅速适应，这里可能不需要应用这一原则。

如何兴奋并不重要，关键看能否达到我们学习的目的。

智能机器人在视觉注意过程中，清晰的视觉刺激更易更多的成为主注意目的对象。不断的追求奖赏，不断的成为主注意目的对象，在追求目的的过程中不断的形成记忆，正确获得奖赏的运动会得到记忆强化而被选择，直到动力下降到一定程度。正确的获得目的，其过程就会不断的得到强化记忆。最后就能以最快的速度获得目的。

一兴奋，导致目的完成，会得到强化。

还要论述一下感觉对习惯性运动的控制。最后习惯性的运动都是通过无意识的感觉进行无意识的调节。

学习过程

兴奋特点，早期由于记忆柱之间的记忆联系不够，兴奋不能迅速发生转移，同时也由于不易兴奋的记忆柱相对更不易兴奋，主注意对象会更长更强的兴奋。早期的刺激，由于记忆联系较弱，因而较难发生主注意对象的转换，可连续成为主注意对象，也可兴奋比较强。也可传入刺激较多，一刺激成为主注意对象后，另一刺激再成为主注意对象。

记忆联系加强后，主注意对象能更快的被选择（易兴奋的记忆柱更易兴奋），而同时不易兴奋的能更快的兴奋，对同群的易兴奋的记忆柱带来更强的抑制，对不同群的易兴奋的记忆柱的易化更强，更易发生注意力的转换。这种情况也使我们更容易回忆一些重要的记忆联系。最终习惯化。

将我们奖赏性的表情与言语与奖赏始终联系，使之成为后天奖赏。

如何正确的获得视觉、听觉，模仿学习的能力。学习获得视觉注意的能力，根据环境运动的能力，理解语言发音及模仿发音的能力。明白如何追奖的能力。这里有主注意目的，亚主注意目的等。

外部刺激持续刺激兴奋记忆柱，但主注意对象的选择所需时间更长。成为主注意对象建立的记忆联系会更强。

先在设置的环境下通过中介奖惩学习获得一些基本的行为能力，如视觉注意，前后运动。在中介奖惩的动力下降后，又能在对目的（如充电）的追求下获得一些新的行为能力并习惯化。